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摘要 : 【 目的 】 利 用 用 户 标签 及 关系 网 络 , 为 用 户 推荐 潜在 的 相似 用 户 。[ 方法 】 通 过 探究 社会 化 标注 系统 中 标 
签 、 关 系 网 络 所 表征 的 用 户 长 短期 兴趣 特征 , 综合 用 户 标签 及 关注 关系 , 利用 多 维 尺 度 法 构建 用 户 聚 类 模型 , 根 
据 用 户 聚 类 结果 进行 相似 用 户 推荐 , 并 以 “ 微 博 ?为 例 对 模型 进行 实证 。[ 结果 】 实 验 结果 表明 ,基于 标签 和 关系 
网 络 的 用 户 聚 类 模型 能 够 有 效 地 结合 用 户 长 得 期 兴趣 特征 ,挖掘 潜在 相似 用 户 ， 聚 类 及 推荐 效果 较 好 。[ 局 限 】 
样本 数据 集 具 有 局 限 性 ,不 能 完全 涵盖 用 户 兴趣 领域 , 仅 从 一 个 领域 验证 了 模型 的 准确 性 与 有 效 性 。[ 结论 ] 通 
过 对 用 户 标签 及 关系 网 络 挖 气 用 户 长 短期 兴趣 , 构建 的 基于 用 户 静 态 标 签 与 动态 关系 网 络 的 用 户 推 荐 模型 ， 对 


个 性 化 用 户 推荐 效果 有 较 好 的 提升 。 
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1 3 引 

社会 化 标注 又 叫 协同 标注 、 大 众 分 类 等 ,是 指 由 
网 络 用 户 自发 地 定义 一 组 标签 描述 某 类 信息 ， 并 选 
用 高 频 标签 作为 该 类 信息 类 名 的 一 种 网 络 信息 分 类 
方法 四。 随 着 信息 技术 的 快速 发 展 ,国内 外 出 现 了 大 
批 允 许 用 户 自行 创建 标签 的 社会 化 标注 系统 ， 如 
YouTube 、 微 博 等 外。 但 由 于 用 户 创建 标签 时 的 随意 
性 产生 的 问题 , 如 标签 歧义 、 模 糊 、 宛 余 等 ， 降 低 了 
内 容 标 引 和 检索 的 有 效 性 申 。 因 此 ， 如 何 提 高 社会 化 
标注 系统 信息 推荐 的 准确 性 , 解决 用 户 获 取信 息 困 
难 成 为 研究 和 关注 的 重点 外 。 目 前 , 主流 的 解决 方式 
是 利用 聚 类 算法 根据 用 户 信息 对 用 户 进行 相似 度 计 
算 ， 实 现 用 户 聚 类 ,再 根据 用 户 聚 类 结果 在 同 簇 用 户 
之 间 进 行 信息 推荐 号 ， 即 用 户 聚 类 结果 是 社会 化 标注 
系统 信息 推荐 的 依据 。 

(1) 社会 化 标注 系统 的 推荐 研究 主要 集中 于 根据 
用 户 “ 标 签 -资源 关系 对 相似 用 户 进行 发 现 , 极 少将 
用 户 关系 网 络 考虑 其 中 ,如 易 明 等 四 和 王 向 前 等 中 通 
过 VSM 将 标签 表示 成 Web 资源 向 量 的 形式 , 进而 计 


了 中 


算 标签 间 的 相似 度 , 利用 DBSCAN 实现 标签 的 聚 类 ; 
Gemmell 等 8 同样 使 用 VSM 构建 标签 与 Web 资源 间 
的 标注 关系 ,利用 层次 聚 类 获取 标签 的 聚 类 结果 并 将 
其 应 用 到 标签 的 个 性 化 推荐 中 。 

(2) 在 社会 化 标注 领域 中 多 维 尺 度 分 析 (MDS) 方 
法 在 国内 主要 应 用 于 通过 科学 图 谱 以 发 现 词 间 关系 ， 
还 未 将 其 应 用 到 相似 度 计算 中 ,如 卢 小 宾 等 上 借助 
MDS 和 聚 类 可 视 化 分 析 方 法 构建 科学 图 谱 ， 对 社会 
化 标签 研究 领域 中 的 热点 词汇 进行 识别 ,揭示 这 些 
热点 关键 词 之 间 的 亲 玻 远 近 关 系 ; 紫 彦 六 通过 SPSS 
软件 的 聚 类 分 析 以 及 多 维 尺度 分 析 , 人 研究 关键 词 之 
间 的 内 在 联系 , 探究 知识 管理 领域 中 的 研究 热点 。 
外 已 经 将 MDS 应 用 于 相似 度 计 算 领域 , 如 Masnick 
等 nA 利用 MDS 创建 职业 相似 性 的 空间 表示 , 用 于 衡 
量 学 生 对 职业 的 态度 ， 以 鼓励 学 生 从 事 科 研 领域 的 
相关 工作 。 

因此 , 本 文 提 出 将 标签 和 关系 网 络 两 者 结合 以 控 
掘 潜在 相似 用 户 , 并 运用 MDS 方法 对 表征 用 户 长 期 
静态 兴趣 的 标签 和 用 户 短期 动态 兴趣 的 关系 网 络 进行 
和 矩阵 降 维 以 计算 相似 度 , 通过 聚 类 寻找 出 兴趣 和 关注 
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相似 度 最 高 的 用 户 群 体 ， 从 而 实现 用 户 的 个 性 化 推 
穴 。 同 时 由 于 用 户 的 兴趣 随 着 时 间 不 断 变 化 , 不 同时 


成 是 在 现实 有 联系 的 基础 上 加 以 个 人 兴趣 为 导向 的 自 
组 织 拓扑 体系 。 对 用 户 进 行 个 性 化 推荐 的 核心 和 关键 


间 用 户 兴 趣 也 会 有 所 不 同 , 但 标签 的 变化 周期 较 长 ， 
具有 一 定 的 稳定 性 , 而 关系 网 络 变化 周期 短 , 具有 动 
态 性 。 模 型 通过 不 断 更 新 用 户 的 关注 变化 信息 以 修正 
推荐 结果 ， 有 效 地 解决 了 推荐 系统 的 数据 稀疏 性 ,但 
无 法 兼顾 用 户 长 短期 兴趣 及 推荐 准确 性 等 问题 。 经 过 
实证 研究 后 发 现 将 用 户 关注 加 入 到 用 户 聚 类 指标 中 ， 
不 仅 大 大 增强 了 用 户 聚 类 的 准确 度 ， 而 且 能 够 揭示 标 
签 的 语义 关联 。 


2 ”模型 描述 及 数据 预 处 理 


本 文选 取 国 内 社会 标注 网 站 的 微 博 数 据 作为 实证 
研究 的 对 象 , 微 博 是 一 种 通过 关注 机 制 分 享 简短 实时 
兰 息 的 广播 式 的 社交 网 络 平台 "…。 微 博 用 户 关系 的 形 


就 是 挖掘 用 户 个 人 兴趣 和 俩 好 ,为 了 能 够 准确 地 挖掘 
微 博 中 存在 的 不 同 兴 趣 用 户 群体 ， 可 以 通过 构建 完善 
的 用 户 兴 趣 发 现 模型 ,在 计算 出 用 户 间 兴趣 相似 度 的 
基础 上 进行 聚 类 , 在 聚 类 篮 群 的 基础 上 对 用 户 进行 精 
准 的 个 性 化 推荐 。 
2.1 用 户 聚 类 模型 总 体 框架 

微 博 是 以 用 户 兴 趣 和 关注 关系 为 导向 的 用 户 关 系 
结构 和 组 织 方式 , 本文 整合 这 两 种 因素 ,在 传统 基于 
静态 标签 构建 用 户 兴趣 模型 的 基础 上 将 用 户 动态 关注 
关系 这 一 指标 引入 其 中 并 构建 用 户 推 荐 模型 , 模型 包 
含 两 个 子 模型 : 用 户 标 签 模型 与 用 户 关注 模型 。 从 而 
计算 出 稳定 的 相似 用 户 群 体 进行 聚 类 ， 提 高 了 用 户 个 
性 化 推荐 的 效率 和 准确 率 , 如 图 1 所 示 。 
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模型 自动 从 微 博 中 收集 用 户 相关 信息 存 人 数据 库 
中 ,对 用 户 标签 信息 .关注 信息 进行 信息 提取 , 并 依据 
模型 进行 数据 预 处 理 ， 分 别 生 成 用 户 标签 共 现 矩阵 及 
用 户 关 注 对 象 共 现 和 矩阵 ,根据 共 现 矩阵 分 别 计 算 基于 
标签 和 关注 关系 的 用 户 间距 离 矩 阵 ， 再 通过 MDS 降 
维 将 用 户 标签 及 关注 关系 的 复杂 距离 整合 形成 二 维 数 
据 ， 进 而 对 用 户 进 行 聚 类 , 实现 用 户 推荐 。 同 时 , 在 较 
短 周 期 内 不 断 更 新 用 户 关注 信息 , 不 断 修 正 用 户 聚 类 
结果 。 这 样 聚 类 得 到 的 结果 才能 够 更 加 准确 地 反映 当 
前 的 现实 状况 。 


2.2 ”实验 数据 

(D 数据 获取 

实证 数据 来 自 新 浪 微 博 用 户 数据 ,笔者 于 2016 
年 11 月 5 日 利用 Python 疏 虫 从 微 博 选取 一 名 用 户 
(http://weibo.com/u/3660593213?from=myfollow_all) 
开始 逐步 扩散 抓 取 用 户 信息 ， 共 抓 取 1 075 名 微 博 
用 户 ,其 中 共有 341 名 用 户 编辑 了 1 905 个 标签 ， 表 
1 显示 了 部 分 用 户 数据 。 数 据 集中 的 字段 分 别 为 : 
用 户 ID、 用 户 昵 称 、 微 博 数 、 关 注 数 、 粉 丝 数 、 标 
签 、 关 注 列表 。 


Data Analysis and Knowledge Discovery 


作 期 乔 


研究 文 


ChinaXiv 合 


表 1 部 分 微 博 用 户 数 据 
用 户 ID 用 户 了 昵称 微 博 数 关注 数 粉丝 数 标签 关注 列表 
3694919990 各 国美 食 学 起 来 YOU 102 390 118 986725 新闻 趣事 , … 微 博 奇 茧 1857414070, ... 
5590998575 不 懂 老 分 806 41 532314 ”外 貌 协 会 , … 星 座 运势 3725773862, ... 
3323442082 视觉 痪 100 402 238 2478 436 “教育 就 业 , ... 时 尚 3193150774, ... 
2155768741 贵州 旅游 广播 3 667 248 316 615 ”FM972, ... 快 乐 2760471402, .…. 
3524931687 走 走 客 云南 旅游 271 137 60 ”云南 旅游 , .自驾 旅游 3273935392, ... 
1990226474 昆 宣 发 布 28 722 1 023 621 450 ”春城 艺术 , ... 春 城 人 物 1266286555, ... 
3175953062 萌 萌 萌 能 55 9 759 时尚, … 星 座 命理 1642909335, ... 


HH 


(2) 数据 预 处 到 
人 删除 不 完整 数据 
由 于 用 户 数据 是 通过 爬虫 自动 抓 取 的 ， 因 此 存在 一 些 
抓 取 不 完整 的 现象 ， 如 用 户 缺 少 关 注 列 表 等 。 去 除 不 完整 记 
录 后 共有 1 039 名 用 户 , 其 中 共有 332 名 用 户 编辑 了 1 871 


要 对 某 些 用 户 标签 进行 中 文 分 词 。 本 文 利用 R 语言 基于 
ICTCLAS 中 文 分 词 系统 对 经 过 步骤 (中 处 理 的 标签 进行 分 词 。 

该 系统 在 中 文 分 词 中 准确 度 较 高 ， 具 有 新 词 识别 、 添 
加 新 词 等 功能 。 能 够 自动 识别 新 词 ， 用户 也 可 以 根据 需要 
添加 新 词 ， 以 提高 分 词 的 准确 性 , 例如 对 “科幻 电影 "、“ 爱 


个 标签 。 情 电影 "等 继续 分 词 将 干扰 后 续 计 算 的 词 定 义 为 新 词 ,使 
@@ 中 文 分 词 其 不 再 进一步 拆 分 , 提高 了 样本 分 词 准确 性 。 经 过 分 词 总 
sie 标签 编辑 的 随意 性 使 得 标签 的 规范 性 存在 一 定 问题 ， 共 可 以 得 到 1 500 个 分 词 , 词 频 总 数 为 3 510, 部 分 结果 如 
| 为 了 更 加 确认 单词 的 意思 以 加 强 它 对 兴趣 的 表征 意义 , 需 。” 表 2 所 示 。 
表 2 标签 分 词 词 频 统计 
标签 旅游 美食 时 尚 生活 新 闻 后 电影 音乐 笑 
词 频 57 48 40 38 34 31 31 29 28 
权重 w/% 1.6239 1.3675 1.1396 1.0826 0.9687 0.8832 0.8832 0.8262 0.7977 
@ 去 停 用 词 


通过 停 用 词 表 予以 去 除 。 利 用 R 语言 进行 停 用 词 去 除 
经 过 分 词 后 的 标签 中 有 一 部 分 是 没有 意义 的 ， 如 阿 、 得 


共 得 到 1 281 个 分 词 ， 词 频 总 数 为 2 801， 部 分 结果 如 表 3 


入 鳃 


座 、 一 定 、 后 、 有 、 笑 等 。 这 些 停 用 词 对 研究 的 关系 不 大 ， 所 示 。 
表 3 标签 去 停 用 词 词 频 统计 
标签 旅游 匡 俘 时 尚 生活 新 闻 影 音乐 娱乐 搞笑 
词 频 57 48 40 38 34 31 29 27 26 
权重 w/% 2.035 1.7137 1.4281 1.3567 1.2139 1.1067 1.0353 0.9639 0.9282 
图 语义 映射 林 》， 利 用 及 语言 计算 标签 间 的 语义 相似 度 ， 以 达到 标 


经 过 以 上 处 理 后 的 部 分 标签 还 存在 标签 语义 问题 ， 
如 旅游 和 旅行 、 信 息 与 资讯 等 ,本文 根 据 《 同 义 词 词 


签 规范 化 的 目 
如 表 4 所 示 。 


的 ， 提 升 其 后 分 析 的 准确 性 ， 


部 分 结果 


表 4 标签 语义 映射 词 频 统计 
标签 旅游 美食 搞笑 音乐 时 尚 生活 新 闻 电影 娱乐 
词 频 80 48 48 42 40 38 34 31 27 
权重 w/% 2.8633 1.718 1718 1.5032 14316 1.3601 1.2527 1.1095 0.9664 
也 ”数据 分 析 与 知识 发 现 


3 ”基于 用 户 标签 及 关注 的 推荐 模型 


3.1 ”用户 标签 模型 

首先 根据 用 户 标签 信息 , 将 用 户 标 签 转换 成 向 量 
并 形成 用 户 标签 矩阵 ,根据 两 个 用 户 的 标签 分 词 后 相 
同 的 词语 越 多 , 则 两 个 用 户 样 本 距离 越 近 的 原理 , 通 
过 距离 计算 得 到 基于 标签 的 用 户 间 的 距离 , 为 后 续 研 
究 做 准备 。 
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(1) 向 量 表示 

选取 预 处 理 后 标签 词 频 大 于 2 的 标签 ( 共 387 个 ) 
作为 标签 集 L， 对 用 户 分 词 后 的 标签 进行 向 量化 表 
示 。 数 据 集 D 中 共 332 名 用 户 分 别 将 分 词 后 的 标签 
与 工 中 的 标签 进行 匹配 , 若 存在 即 记 为 1, 不 存在 则 
为 0, 构建 敌阵 ， 部 分 数据 如 表 5 所 示 。 第 一 列 为 用 
户 , 每 名 用 户 以 “U+ID” 的 形式 加 以 区 分 ; 第 一 行为 
用 户 标签 。 


表 5 用 户 标签 矩阵 
J 旅游 美 廊 搞笑 音乐 时 尚 生活 新 闻 电影 娱乐 

U5107361689 1 0 0 0 0 0 1 0 0 
U1662055430 0 0 0 1 0 0 0 1 1 
U1654603903 1 1 0 0 1 0 0 1 1 
U1692712653 1 0 0 1 0 0 0 0 1 
U1651891204 1 0 于 0 0 
U3524931687 0 1 0 0 0 1 1 0 0 
U2040810221 1 1 0 0 1 0 1 0 0 
U1215144691 1 1 0 1 1 0 0 1 0 
U2684123023 0 1 0 1 1 0 0 1 0 

(2) 用 户 间距 离 矩 阵 n 

i 辫 r 9 04] 汽 用 户 dy 一 G) 
对 表 5 中 的 矩阵 做 用 户 间距 离 的 计算 “， 设 用 户 Mm + na 


问 量 为 : 

x =(6(,D,6(2,D,, OmD)) ,i=1,2,N (1) 

其 中 , N 为 样本 用 户 数量 , m 为 标签 集 工 中 标签 , / 
表示 第 m 个 标签 下 的 值 。 

sn) = ee A 
0,， 表示 用 户 i 不 存在 标签 m 

设 有 两 个 用 户 x 和 x%, 若 6,(m,1)=6;(m,1)=1, 则 
称 这 两 个 用 户 在 第 m 个 标签 上 1-1 配对 ; 车 
6.(m,1)=6;(m,7)=0，, 则 称 这 两 个 用 户 在 第 m 个 标签 
上 0-0 配对 ; 车 6,(m,1) 二 56;(m,1)， 则 称 这 两 个 用 户 在 
第 m 个 标签 上 不 配对 。 记 nn 为 xy 和 忆 在 m 个 标签 中 
1-1 配对 总 数 , no 为 x 入 在 m 个 标签 中 0-0 配对 总 数 ， 
12 为 不 配对 总 数 , 则 有 : notnitnz=m， 用户 x 入 之 间 
的 距离 定义 为 : 


根据 公式 (3) 利 用 R 语言 求 得 所 有 用 户 间 的 距离 ， 
部 分 数据 如 表 6 所 示 。 

通过 表 6 可 以 看 出 不 同 用 户 间 的 距离 有 所 不 同 ， 
dj 值 越 大 说 明 两 用 户 间距 离 越 大 ， 两 者 标签 相似 度 越 
低 ; 相反 , 必 值 越 小 说 明 两 用 户 间距 离 越 小 ,两 者 标签 
相似 程度 越 高 。 但 标签 仅仅 能 代表 用 户 相 对 静态 的 特 
征 , 不 能 及 时 表征 用 户 的 动态 兴趣 ， 因 此 本 文 提出 在 
此 基础 上 构建 用 户 关注 模型 。 
3.2 ”用 户 关注 模型 

首先 根据 用 户 关注 信息 , 选取 少量 用 户 探究 用 户 
之 间 的 关注 关系 , 进而 将 用 户 关注 转换 成 向 量 并 形成 
用 户 关注 矩阵 , 根据 两 个 用 户 相同 的 关注 用 户 越 多 ， 
则 两 个 用 户 样 本 距离 越 近 的 原理 , 通过 距离 计算 得 到 
基于 标签 的 用 户 间 的 距离 ,为 后 续 研 究 做 准备 。 
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表 6 基于 标签 的 用 户 间 距离 矩阵 

dy Ul U80 二 U160 U161 再 U240 本 U332 
Ul 0 0.875 0.777778 0.818182 0.9375 0.909091 
U2 0.9 a 0.9 0.666667 0.5 es 0.75 ee 0.75 
US80 0.875 a 0 0.777778 0.818182 0.9375 a 0.8 
Ul160 0.777778 0.777778 i 0 0.5 ba 0.888889 i 0.75 
U1l61 0.818182 0.818182 oe 0.5 0 a 0.8 0.833333 
U240 0.9375 0.9375 0.888889 0.8 Sua 0 0.777778 
U332 0.909091 i 0.8 a 0.75 0.833333 0.777778 a 0 


(1) 用 户 共 同 关注 关系 挖 气 
为 了 探究 用 户 之 间 的 关注 是 否 存在 关系 ,从 全 部 
332 名 用 户 数据 中 随机 选取 15 名 样本 用 户 的 关注 列 
表 , 15 名 用 户 关 注 数 据 如 表 7 所 示 。 
表 7 15 名 用 户 关 注 列表 


连 线 表明 两 个 中 心 用 户 间 有 共同 关注 的 对 象 , 正 是 由 
于 不 同 用 户 间 存在 共同 关注 的 对 象 , 因此 用 户 节点 数 
为 1 929, 即 15 名 用 户 共同 关注 了 259 名 其 他 用 户 , 同 
时 颜色 越 相 近 的 用 户 群 则 中 心 用 户 间 共同 关注 的 用 户 
越 多 。 根据 对 15 名 样本 用 户 关系 的 验证 ,可 以 得 出 全 


同 ] 记 ， 关注 列表 


U3694919990 5186027114, 5182575519... 
U3948635268 1642630543, 5982981128... 
U3323442082 5186027114, 3440325930... 
U2155768741 3766659924, 3752852352... 
U3524931687 2997829562, 5611200000... 
U1990226474 5878659096, 5768117490... 
U1108476625 5991719510, 2781627392... 
U3175953062 2705706381, 3003417253... 
U2912473701 5357651574, 2415848337... 
U1288915263 3937348351, 1289945134... 
U2029728883 5785953533, 3174322363... 
U5177961014 5796731205, 1999607273... 
U2206498342 2703907413, 5465835912... 
U3101945993 5980283108, 5980023345... 
U5721022666 5581785513, 2850809427... 
每 名 用 户 只 要 关注 一 个 其 他 用 户 , 则 与 该 用 户 构 


成 关注 关系 ,15 名 用 户 共 关注 2 188 名 用 户 ， 即 得 到 
2 188 个 关注 关系 。 通 过 Gephi 软件 对 用 户 间 的 关系 进 
行 挖掘 中， 以 证 明基 于 用 户 关注 关系 聚 类 的 可 行 性 ， 
如 图 2 所 示 。 

图 2 中 每 个 用 户 群 的 中 心 点 代表 不 同 的 中 心 用 户 ， 
发 散 的 点 代表 其 关注 的 用 户 , 可 以 看 出 许多 中 心 用 户 
关注 的 用 户 有 较 大 的 重合 部 分 ， 即 不 同 用 户 群 之 间 的 
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部 用 户 之 间 存 在 非常 密切 的 关注 联系 ,这 对 全 部 用 户 
的 关注 关系 进行 聚 类 有 重要 的 意义 。 


大 
图 2 用 户 关注 图 

(2) 向 量 表示 

将 数据 集 D 中 共 332 名 用 户 的 关注 列表 进行 整理 ， 
共有 关注 26 958 个, 删除 重复 关注 $ 155 个 , 剩余 关注 
21 803 个 。 将 21 803 个 关注 ID 作为 关注 集 FE 分别 将 
每 名 用 户 的 关注 列表 与 F 中 的 关注 进行 匹配 , 若 存 在 
即 记 为 1, 不 存在 则 为 0, 构建 矩 阵 。 共 332 行 用 户 行 ， 
21 803 列 关 注 列 ， 部 分 数据 如 表 8 所 示 。 
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表 8 用 户 关注 和 矩阵 


用 户 F5186027114 F5608272697 F3756087501 F2803301701 F2516014697 
U1846588483 1 0 0 0 0 
U2542011901 1 0 0 0 0 
U1692712653 1 0 0 0 1 
U1644572034 1 0 0 0 0 
U1781457455 0 0 0 0 0 
U5107361689 0 0 0 0 0 
U2542011901 1 0 0 0 0 
U2834863492 0 1 1 1 1 
U3524931687 0 1 1 1 0 
U1203156407 0 0 1 0 0 

(3) 用 户 间 距离 矩阵 离 , 得 到 基于 关注 关系 的 用 户 间 距离 矩阵 ， 部 分 数据 


采用 与 标签 距离 计算 同样 的 算法 计算 用 户 间距 


如 表 9 所 示 。 


长 9 ”基于 关注 关系 的 用 户 间 距离 矩阵 


dy Ul U80 U160 Ul6l U240 U332 

1 0 0.963350 0.988636 0.970149 0.991701 
U2 0.994350 0.992753 1 0.993827 1 1 
U80 0.963350 0 0.994680 0.994186 0.991525 0.997076 
U160 0.988636 0.994680 0 0.995762 0.992187 0.987012 
U1l61 0.987654 0.994186 0.995762 0 0.996491 0.989664 
U240 0.970149 0.991525 0.992187 0.996491 0 0.992882 
U332 0.991701 0.997076 0.987012 0.989664 0.992882 0 


根据 表 9, qd; 越 大 说 明 两 用 户 间 关注 的 相似 度 越 
低 , qd; 越 小 说 明 两 用 户 间 关注 的 相似 度 越 高 ,同时 可 以 
部 分 值 是 1, 这 是 因为 关注 集 F 中 


看 到 距离 矩阵 中 有 
21 803 个 关注 ID 相对 于 月 
造成 数据 的 稀 玻 性 。 


将 有 


户 标签 静态 性 与 用 户 关注 的 动态 怕 


肾 类 。 利 用 多 维 尺度 分 析 法 对 多 维度 的 月 


| 


上 户 最 多 200 的 关注 过 于 


F 庞 大 ， 


此 可 以 发 现 蔡 仅 根 据 用 户 关注 对 
用 户 进行 聚 类 实现 个 性 化 推荐 还 是 有 一 定 的 缺陷 的 。 
3.3 综合 用 户 聚 类 模型 


进行 综合 
有 户 标签 与 用 


户 关注 进行 降 维 后 ,再 通过 K-means 方法 进行 用 户 


类 ,实现 用 户 的 个 怕 
(1) 向 量 表示 


化 推荐 。 


聚 


多 维 尺度 分 析 法 (MDS)"” "是 一 种 将 多 变量 的 多 
维 大 型 数据 压缩 到 低 维 空间 的 方法 , 通过 低 维 空间 的 
点 表示 变量 间 的 潜在 规律 性 联系 , 旦 通过 平面 间 的 距 
离 反 映 样本 间 的 相似 度 。MDS 具有 很 多 优点 , 包括 中 1: 


样本 数据 可 以 不 受 任何 事先 分 布 假设 的 约束 ; 能 够 处 
理 不 同类 型 的 数据 ; 能 够 将 多 变量 多 维 数据 压缩 到 低 
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维 空间 等 。 
本 文 根 据 用 户 标签 及 关注 关系 的 向 量 矩 阵 , 分 别 
对 其 进行 MDS 降 维 处 理 , 将 维 数 差别 巨大 的 标签 矩 
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_ 到 六 


(2) 用 户 聚 类 
K-means 算法 是 一 种 典型 的 适合 于 大 样本 的 Q 型 
聚 类 分 析 方 法 M9, 通过 计算 数据 集中 点 与 点 之 间 的 距 


阵 (332 行 x387 列 ) 与 关注 和 矩阵 (332 行 x21807 列 ) 信 息 整 


离 或 相似 度 进 行 聚 类 , 且 类 中 心 采 用 类 中 值 的 均值 计 


合 到 二 维 空 间 中 , 用 户 的 标签 MDS 和 关注 MDS 代表 ” 算 而 成 (1。 
用 户 在 向 量 空 间 中 的 维度 ， 其 值 为 用 户 在 向 量 空间 中 聚 类 算法 如 下 : 
的 坐标 ， 部 分 结果 如 表 10 所 示 。 四 确定 初始 类 中 心 点 。 随机 选择 上 个 元 素 作为 上 个 类 的 
Sp Ne 心 起 6 
表 10 基于 标签 及 用 户 关注 MDS 降 维 数据 + ， 
@) 初 始 类 。 将 表 5 和 表 8 中 基于 标签 和 用 户 关注 MDS 
和 和 2 降 维 数据 结合 ,计算 每 个 点 到 类 中 心 的 距离 ,将 每 个 点 聚 类 
U2612101423 0.049094493 —0.034319904 到 离 该 点 最 近 的 类 中 去 ， 得 到 天 个 粗 分 类 。 
U1846588483 0.014763293 -0.011171253 @) 更 新 类 中 心 。 计 算 各 个 粗 分 类 中 所 有 点 的 坐标 平均 
U1306794125 0.055376563 -0.034743694 值 ， 并 将 这 个 平均 值 作为 新 的 聚 类 中 心 。 
U5179732445 0.50130544 -0.036149048 图 重复 执行 步骤 四 、 步 骤 @)， 直 到 聚 类 中 心 不 再 进行 大 
U5761248787 0.50130544 -0.004671656 范围 移动 。 
U1665102492 0.04820318 -0.033469629 K-means 聚 类 作为 凝聚 式 的 聚 类 方法 ， 需要 人 为 
U2647197351 0.033225349 -0.046390183 定义 其 初始 类 中 心 点 的 个 数 ， 由 于 样本 数据 共有 332 
U5961019705 0.034749234 -0.03427661 i i a 
名 有 效用 户 , 为 不 失 一 般 性 , 模型 为 每 位 用 户 推荐 10 
U1781457455 0.043747374 -0.034271488 ie 2 
U5107361689 -0.055230674 0.114665726 名 左右 的 用 户 ， 因此 以 初始 类 中 心 全 30 为 例 进行 聚 
U2542011901 0.046136223 _0.000205833 类 , 聚 类 结果 如 图 3 所 示 。 
U2871542364 0.058303826 -0.042518174 3 中 不 同形 状 的 点 表示 不 同 的 用 户 篮 群 。 米 字 
U2834863492 0.05151389 0.004734437 型 代表 簇 中 心 所 在 的 位 置 ， 复 中 心 为 该 复 中 所 有 用 
U2624882007 -0.081583674 -0.027694683 户 坐 标的 平均 值 ， 该 中 心 点 即 代表 该 徐 , 用 以 表征 该 
U1692712653 —0.08441402 —0.004928777 簇 中 的 所 有 用 户 .可 以 看 到 ， 每 一 个 簇 中 心 周 围 都 聚 
U1644572034 0.052114494 0.095748648 a pe a 
U1651891204 0.139576002 0.029852541 集 着 该 刻 中 的 点 , 且 较 为 紧密 ,其 他 簇 中 心 有 较 为 
Et 明 电 好 这 说 明 聚 类 效果 较 好 , 但 仍 需 通 过 聚 类 
U2094215167 0.050809285 0.003524086 2 2 委 聚 类 效果 较 好 i 
二 了 十 联 并 太 和 半 人 4 二 人 育 - 且 . NA > £ 
U3524931687 -0.10443334 -0.023421971 指标 对 聚 类 效 末 进行 衡量 , 表 11 为 综合 聚 类 结 采 的 
指标 。 
0.4] 
0.3 了 米 米 
om A 
合 A 
三 0.2] x 
志 
六 当 
Em 站 “总 Ey 
米 上 Ap 
0.01 和 Br 
人 
_0.4 _02 0.0 0.2 0.4 
标签 MDS 
图 3 综合 聚 类 结果 图 
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表 11 综合 聚 类 三 30 指标 结果 


指标 值 


TOT.Withinss 篮 群 内 距离 平方 总 和 0.1385733 
Betweenss 复 群 间距 离 平方 总 和 7.615879 


如 表 11 所 示 , 簇 群 内 距离 平方 总 和 (TOT.Withinss) 
指标 表示 所 有 簇 用 户 距离 其 艇 中 心 点 距离 平方 的 和 ， 
该 指标 用 以 衡量 聚 类 结果 的 凝聚 度 ， 该 值 越 小 说 明 该 
类 用 户 越 紧 凑 ， 聚 类 效果 越 好 ; 簇 群 间 聚 类 平方 总 和 
(Betweenss) 指 标 表示 不 同 簇 群 间 徐 中 心 距离 的 平方 
和 ,该 指标 用 以 衡量 聚 类 的 分 离 度 ， 该 值 越 大 说 明 将 
类 与 类 之 间 分 离 越 明 显 ， 聚 类 效果 越 好 。 


4 模型 效果 分 析 


4.1 模型 有 效 性 评价 

(1) 评价 指标 

由 于 聚 类 分 析 是 一 种 无 监督 的 分 析 方 法 "43， 因 此 
对 上 聚 类 后 的 结构 进行 有 效 性 度量 是 非常 必要 的 。 聚 类 
有 效 性 的 度量 一 般 基于 对 簇 内 和 簇 间 两 个 方面 进行 衡 
量 , 好 的 聚 类 效果 为 具有 最 小 的 徐 内 距离 和 最 大 的 簇 
间 上 距离, 即 具 有 最 小 的 簇 内 凝聚 度 和 最 大 的 复 间 分 离 
度 [。 

当前 提出 的 有 效 性 函数 大 多 是 基于 凝聚 度 和 分 离 
度 的 组 合 进 行 改 进 。Xie-Beni 提出 使 用 Vs 函数 对 聚 
类 有 效 性 进行 测量 ”I， 如 公式 (4) 所 示 。 
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i=1 j=1 
Vs = ; 2 (4) 
n:minllv;—v,; | 


其 中 , Vs 表示 凝聚 度 和 分 离 度 的 比例 , Vs 越 小 说 
明 聚 类 效果 越 好 ; TY > lw -> 上 P 为 度量 凝聚 度 ， 


i=1 j=1 


其 值 越 小 该 类 越 紧凑 ; min ||v; =-v， 上 为 度量 分 离 度 , 其 
值 越 大 , 分 离 度 越 大 , 则 类 与 类 之 间 分 离 得 越 好 。 
本 文 将 上 述 函 数 简 化 , 如 公式 (53) 所 示 。 

_ TOT Withinss(k) (5) 

Betweenss(k) 

其 中 , 大 表示 聚 类 数 ，7Tot WWithnss( 及 表示 在 聚 类 数 
为 下, 簇 内 距离 平方 和 总 量 , 用 以 度量 凝聚 度 ; 
Betweenss 表示 在 聚 类 数 上 下 ， 复 间 聚 类 平方 和 总 量 ， 
用 以 度量 分 离 度 , Vrs 值 越 小 ， 则 聚 类 效果 越 好 。 

(2) 有 效 性 分 析 

为 了 方便 描述 , 将 本 文 提 出 的 基于 标签 与 关注 关 
系 综合 聚 类 方法 简写 为 L_F_C; 将 基于 标签 的 聚 类 方 
法 简写 成 L_C; 将 基于 关注 聚 类 的 方法 简写 成 F_C。 
使 用 本 文 提 出 的 _ Vis 函数 的 简化 函数 Vrs 函数 。 分 别 
预 设 聚 类 个 数 , 这 里 设 定 各 方法 聚 类 个 数 均 为 厂 3、 
6、 丘 9、 乒 12、 乒 15、 乒 18、 乒 21、K=24、 乒 27、 
他 30, 根据 标签 距离 算 阵 、 关 注 距 离 和 矩阵 及 综合 MDS 
和 矩阵 分 别 经 过 聚 类 并 计算 得 到 图 4。 


TB 


12.72917 


10.99826 | 9.697533 8.636529 | 7 g0795? 


0.9673007 |0.9213436 |0.8082591 |0 7417313 | 0.7183055 


聚 类 个 数 K 


一 “一 F_C 一 本 一 LC LFC 


图 4 LFC、FC 和 LC 方法 Vrs 值 对 比 
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从 图 4 可 以 看 出 本 文 提出 的 基于 标签 及 关注 关系 
综合 聚 类 (L_F_C) 在 Vrs 指标 上 远 远 优 于 单独 基于 标 
签 聚 类 方法 (L_C) 和 基于 关注 关系 聚 类 方法 FE_C。 表 
明 本 文 所 提出 的 基于 标签 及 关注 关系 聚 类 的 方法 能 
获取 较 好 的 聚 类 结果 。 主要 原因 在 于 L_F_C 方 法 将 用 
户 静 态 标 签 及 用 户 动 态 关 注 关 系 考 虑 其 中 ,大 大 增加 


六 上 VV 人/ 奢 甘 日 工 
ChinaXiv 喇 人 FF 基 HT 


了 聚 类 的 准确 性 及 有 效 性 。 
4.2 ”实证 结果 分 析 

本 文 随机 选取 用 户 M 对 模型 进行 实证 。 用 户 M 
数据 如 表 12 所 示 。 

设置 聚 类 数 大 30 对 样本 332 名 用 户 数据 进行 聚 
类 , 聚 类 结果 如 表 13 所 示 。 


表 12 用 户 M 数据 
用 户 ID 用 户 昵称 标签 关注 列表 
2132089917 陈 秋 实 和 他 的 朋友 们 语录 ,新闻 ， 美剧, 运动 , 80 后 ， 传媒， 写作 ， 处 女 座 1803526210, 1854768217, ... 
表 13 模型 从 类 结果 
用 户 ID 用 户 昵 称 标签 关注 列表 
2132089917 ” 陈 秋 实 和 他 的 朋友 们 语录 , 新闻， 美剧， 运动, 80 后 , 传媒 ， 写作， 处女 座 1803526210, 1854768217, ... 
1448466905 ” 非 要 马甲 线 下 厨房 ,营养 学 , 健身 , 爱 ， 天蝎， 美食 , 旅游 1690832323, 1238296465, ... 
1592611830 ”演员 李 健 天 蝎 座 1870958692, 5941080382, ... 
2307134004 STAGExx 时 尚 , 美食, 音乐, 电影， 旅游 1813787671, 1812640242, ... 


3173913704 “葡萄 sasa 定制 店 
1254995044 ” 山 外 有 


旅游 ,时尚 


已 脑 ， 宅 ， 书 纪录片， 摄影， 西南 交通 大 学 ， 四川 大 学 


5646244946, 3944457562,... 
64230524, 3208535250, ... 


通过 对 用 户 M( 陈 秋 实 和 他 的 朋友 们 ) 背 景 进行 了 
解 ， 可 以 发 现 该 用 户 昵称 叫 陈 秋 实 ,是 《我 是 演说 家 》 
亚军 ,， 从事 过 演员 助理 、 配 音 员 、 记 者 、 电 视 编 导 、 
电视 主持 人 、 和 舞台 剧 、 影 视 剧 演员 等 多 种 职业 , 目前 
就 职 于 北京 隆安 律师 事务 所 ,主要 执业 方向 为 影视 娱 
乐 、 传 媒 、 互 联网 领域 的 法 律 业务 。 

因此 , 用 户 M 对 影视 、 传 媒 、 互 联网 等 行业 应 较 
为 关注 ， 从 表 12 可 以 发 现 虽然 该 用 户 在 标签 中 并 未 明 
确 标注 “娱乐 "、“ 互 联网 ”等 词语 , 但 对 用 户 M 的 推荐 
主要 是 娱乐 、 互 联网 领域 的 用 户 , 可 以 从 “演员 李 健 ”、 
“STAGExx”* 等 用 户 的 标签 中 发 现 。 同 时 从 演员 李 健 的 
标签 中 也 可 以 看 出 ,演员 李 健 标签 只 有 “天 蝎 座 ”， 但 
其 身份 为 一 名 演员 , 模型 通过 关注 关系 发 现 该 用 户 的 
潜在 特征 , 将 其 推荐 给 用 户 M。 

同时 , 经 过 对 用 户 M 关注 列表 的 分 析 , 该 用 户 在 
最 近 关 注 了 “ 训 骑 出 行 ”等 出 行 旅游 类 微 博 ， 因 此 模型 
也 将 基于 关注 关系 为 用 户 M 进行 推荐 , 根据 推荐 结果 
可 以 发 现 , 虽然 用 户 M 在 标签 中 并 未 有 “旅游 "等 词语 ， 
但 在 其 推荐 用 户 中 可 以 看 到 “ 非 要 马甲 线 ”、 
“STAGExx”、“ 和 葡萄 sasa 定制 店 ” 三 名 用 户 的 标签 中 都 
含有 “旅游 "标签 , 说 明 这 三 者 都 是 对 旅游 出 行 具有 长 
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期 兴趣 的 用 户 , 模型 对 用 户 M 关注 关系 的 更 新 发 现 他 
们 与 用 户 M 关系 , 进而 进行 推荐 。 

综 上 所 述 , 本 文 所 提出 的 模型 综合 用 户 M 标签 表 
征 的 长 期 兴趣 与 关注 表征 的 短期 兴趣 能 够 较 好 地 将 符 
合用 户 M 特征 的 其 他 用 户 作为 被 推荐 对 象 ， 推荐 给 用 
户 M。 但 是 , 由 于 样本 信息 不 完全 ,主要 集中 在 娱乐 
领域 , 因此 , 在 被 推荐 用 户 中 法 律 领域 的 用 户 并 未 出 
现 。 经 过 上 述 分 析 有 理由 相信 ， 在 数据 量 更 为 充分 的 
情况 下 , 模型 将 能 更 精确 地 综合 用 户 长 短期 兴趣 ， 推 
荐 更 为 准确 的 相似 用 户 。 


S 结 语 


本 文 将 用 户 作为 个 性 化 推荐 的 对 象 , 提出 基于 用 
户 静态 标签 与 动态 关系 网 络 的 用 户 推 荐 模型 。 通 过 用 
户 标签 及 用 户 关 系 网 络 挖掘 用 户 长 短期 兴趣 特征 , 开 
创 性 地 利用 MDS 降 维 的 方式 将 用 户 多 维 信息 全 部 包 
含 进 模 型 中 , 并 使 用 聚 类 分 析 的 方法 发 现 潜在 相似 用 
户 ， 提 高 了 用 户 聚 类 的 准确 性 与 全 面 性 及 用 户 推荐 的 
有 效 性 。 并 且 , 本 文 将 提出 的 模型 应 用 于 真实 数据 集 ， 
证 明了 模型 的 准确 性 及 推荐 的 有 效 性 。 

但 本 文 为 了 更 加 清晰 地 描述 模型 ， 并 未 从 多 个 角 
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度 进行 数据 的 采集 , 样本 数据 集 具有 局 限 性 , 不 能 完 
全 涵盖 用 户 所 有 兴趣 领域 , 仅 从 一 个 领域 验证 了 模型 
的 准确 性 与 有 效 性 。 今 后 的 研究 方向 将 扩大 数据 的 履 


盖 面 ,从 多 个 领域 节点 出 发 收集 数据 , 通过 实证 结果 


继续 完善 模型 的 相关 算法 ,以 进一步 提高 模型 的 可 行 


性 和 有 效 性 ,促使 模型 从 理论 走向 实践 。 
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Clustering and Recommending Users Based on Tags and 
了 Relation Network 


Xiong Huixiang Jiang Wuxuan 
(School of Information Management, Central China Normal University, Wuhan 430079, China) 


Abstract: [Objective] This paper proposes a new model to recommend potential similar users with the help of social 


tags and relation network. [Methods] First, we explored characteristics of the users” Short or long-term interests based 


on the social tagging system. Then, we built a user-clustering model using multidimensional scaling method with the 


tags and relationship data. Finally, we recommended similar users based on the clustering results. The proposed model 


was examined with Weibo data. [Results] We found that the new model could effectively combine the characteristics of 


the user’s interests, and then identify the potential similar ones. [Limitations] The sample data does not include 


everything on user interests. Thus, we only examined the effectiveness of the proposed model with limited data. 


[Conclusions] The user recommendation model based on static tags and dynamic relational network could improve the 


personalized recommendation services. 
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